Introduction à l'apprentissage par renforcement profond (DRL)

L'apprentissage par renforcement profond (DRL) combine les capacités de représentation à haute dimension des réseaux de neurones profonds avec le cadre de contrôle optimal de l'apprentissage par renforcement. Contrairement aux apprentissages supervisé ou non supervisé, les agents DRL agents apprennent par essais et erreurs, en interagissant dans un environnement dynamique environnement, en prenant des décisions séquentielles décisions séquentielles sans étiquettes immédiates ni explicites. Cette intégration permet aux agents de traiter directement des entrées complexes et brutes (comme des données d'images).

1. Le paradigme d'apprentissage DRL

L'agent d'apprentissage par renforcement fonctionne en boucle continue : en observant l'environnement État ($S_t$), en effectuant une action Action ($A_t$), et en recevant un signal de récompense scalaire potentiellement faible ou différé Récompense ($R_{t+1}$). Le défi principal est le problème de attribution du crédit: déterminer quelles actions passées sont responsables d'un signal de récompense futur.

2. L'objectif d'optimisation

L'objectif ultime est de découvrir une stratégie optimale, ou politique ($\pi^*$), qui est une application des états vers les actions, maximisant le retour cumulé actualisé attendu ($G_t$). Le facteur d'actualisation ($\gamma \in [0, 1]$) est mathématiquement crucial, définissant combien nous valorisons les récompenses immédiates par rapport aux récompenses espérées à long terme.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$

The Fundamental RL Cycle

An illustration of the Markov Decision Process (MDP) framework. The Agent's policy dictates the action ($A_t$) based on the current state ($S_t$), leading the Environment to transition to a new state ($S_{t+1}$) and provide a reward ($R_{t+1}$).

The Reinforcement Learning Cycle: Agent, Environment, State, Action, Reward

Question 1

How does the DRL agent receive feedback from the environment?

Explicit labels/targets

Backpropagation through time

Scalar reward signal

Labeled demonstration data

Question 2

What does the policy ($\pi$) mathematically represent?

The predicted total reward

A distribution over actions given a state

The probability of transitioning to a new state

The error between predicted and actual returns

Challenge: The Discount Factor

Analyzing the Temporal Horizon.

Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.

Step 1

How does the choice of $\gamma$ affect the policy's horizon?

Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.